Wielowymiarowa analiza danych oraz analiza koszykowa z wykorzystaniem algorytmu apriori na podstawie przedsiębiorstwa X

Import pakietów oraz danych - wstępne rozeznanie w danych

Import niezbędnych bibliotek m.in.: pandas, numpy i matplotlib

Pobieramy dane między innymi o zamównieniach, klientach, subskrybentach, produktach, kampaniach itd. Następnie wywołując metodę head() oraz shape, sprawdzam poprawność zaimportowanych danych (m.in. odkodowanie, separatory, wielkość liter, spójność). Wstępnie zapoznaję się z danymi badanego przedsiębiorstwa.

Szczegóły bazy danych o zamówień oraz jej wielkość

Szczegóły bazy danych o kampaniach oraz jej wielkość

Szczegóły bazy danych o klientach oraz jej wielkość

Szczegóły bazy danych o subksrybcjach oraz jej wielkość

Szczegóły bazy danych o produktach oraz jej wielkość

Szczegóły bazy danych orderlines oraz jej wielkość

Szczegóły bazy danych kalendarz oraz jej wielkość.

Zaimportowano dane dotyczące sprzedaży analizowanego przedsiębiorstwa, z których dowiadujemy się przede wszystkim o rozmiarze baz danych - z ilu wierszy oraz kolumn się składa oraz jakie dane mieszczą się w kolejnych kolumnach. Przedsiębiorstwo prowadząc sprzedaż do każdego zamówienia, któremu nadawany jest indywidualny numer gromadzi jeszcze inne informacje w postaci numeru identyfikacyjnego klienta, numeru kampani, daty zamówienia, miasta/stanu/kodu pocztowego z którego zostało zamówienie złożone, metody płatności, wartości całego zamówienia jak również ilości zamówionych produktów.

Wstępna analiza struktury poszczególnych baz danych - podstawowe statystyki

Na początek rozważań sprawdzam, z jakiego czasookresu są dane dotyczące zamówień - z ilu pełnych lat posiadamy dane. Widzimy, że dla lat od 2010 do 2015 mamy dane dla pełnego roku.

Na potrzeby prowadzonej analizy, łączę dane tworząc duży zbiór danych pod nazwą all_coop. Do baz danych pod nazwą all_coop oraz orderlines dodaję kolumnę year, i konwertuję dane na datetime. Dla pozostałych kilku baz dodaję kolumnę to_count w celu przeprowadzenia obliczeń w dalszej części pracy.

Wielkość przychodu

Sprawdzam jaki jest całkowity przychód badanego przedsiębiorst. W badanym okresie wyniósł 13.708.896,30 z największym udziałem w tej sumie produkty z grupy ARTWORK ,których łączna wartość sprzedaży wyniosła 9.137.891,64

Struktura klientów ze względu na płeć

Sprawdzam również strukturę klientów ze względu na płeć, obliczając liczebność każdej z grupy, a następnie rzutując ją na całość populacji. Stąd otrzymujemy informację, że mężczyźni stanowią 55,6% udziału a kobiety 44,4%, a zatem mamy niewielką dysproporcję ze względu na płeć pośród klientów.

Struktura prowadzonych kampanii

Sprawdzam również popularność kanałów, którymi prowadzone są kampanie. Z przeprowadzonych przeliczeń wnioskuję, że najpopularniejszym jest AD, a następnie MAIL oraz PARTNER.

Formy płatności

Określam popularność metody płatności, dodając dodatkową kolumnę do bazy danych orders, a następnie poprzez grupowanie zliczam liczebność w grupach. W ten sposób otrzymuję informację, że najpopularniejszą formą płatności jest ta o oznaczniu VI z procentowym udziałem pośród wszystkich transaki na poziomie niespełna 40%, a następnie praktycznie równo na drugim i trzecim miejscu są metoda AE oraz MC.

Miasta ze względu na wysokość osiągniego przychodu

Następnie sprawdzam w których miastach firma realizuje największe przychody. Dla tego celu tworzę nową zmienną, dla której pozbywam się nie istotnych z tego punktu widzenia danych, a następnie sumuję oraz układam dane malejąco pokazując pierwsze 12 rekordów. Dostajemy informację, że miastem, które generuje najwyższy przychód dla firmy jest New York i jest to wartość dla całego badanego okresu na poziomie 1 571 296,06 dla 17 753 transakcji, co daje nam średnią wartość pojedynczej transakcji na poziomie 88,50.

Struktura subskrybcji

Pośród subskrybentów sprawdzam udział poszczególnych w całości. W liczbach bezwzględnych dla subskrybcji Bottom jest to 4 128 176, Middle 612 038 oraz Top 327 821. Natomiast jeśli chodzi o udział procentowy w całej populacji to ma się to następująco: Bottom 81,45%, Middle 12,08% oraz Top 6,47%.

Statystyki - przychód

Struktura przychodu ze względu na grupy produktowe

Sprawdzam w bazie danych produkty, która grupa jest wiodącą jeśli chodzi o ilość i wartość zawartych z jej udziałem transakcji. Dla tego celu do do bazy danych 'orderlines_products' dodaję kolumnę wypełnioną jedynkami, a następnie poprzez grupowanie zliczam liczebność każdej z grup. Jak widać, najpopularniejszą grupą z ogromną przewagą nad pozostałymi jeśli chodzi o wysokość wygenerowanego przychodu jest grupa produktów ARTWORK ze wartością sprzedaży na poziomie ponad 9 mln dol. przy ponad 56 tys. zawartych transakcji. Pod względem ilości transakcji góruje tutaj grupa produktów z kategorii BOOK, z ilością ponad 113 tys. i wygenerowanym przychodzie na poziomie niespełna 2,5 mln dol. Jest to również druga grupa produktów co do wielkości wygenerowanego przychodu.

Struktura przychodu ze względu na płeć klientów

Struktura przychodu ze względu na kanał dystrybucji

Struktura przychodu ze względu na formę płatności

Z poniższych danych widać, że popularność konkretnej formy płatności przekłada się również na wielkość przychodu. Trzy najpopularniejsze metody VI, AE oraz MC przekłądają się również na wielkość przychodu.

Poddano analizie metody płatności ze względu na ilość zawartych transakcji z udziałem każdej z nich w kolejnych analizowanych latach. Widać na dołączonym wykresie, że wymienione powyżej najpopularniejsze metody płatnicze VI, AE oraz MC przez cały badany okres utrzymywały podobny wzrost ilości zawartych z ich udziałem transakcji. Rok 2014 był przełomowym, w kolejnych latach nastąpił spadek ilości transakcji praktycznie dla każdej formy płatności.

Dane z wykresu w formie tabeli przestawnej.

Struktura przychodu ze względu na rodzaj subskrybcji

Klienci którzy posiadają najniższą subskrybcję, generują największy przychód dla badanej jednostki.

Podstawowe statystyki

Przedstawienie matematyczne wzorów dla podstawowych statystyk

Średnia arytmetyczna jest jednym z najpopularniejszych pojęć statystycznych, służąca do opisu zbiorowości. Liczona jest dla danych numerycznych poprzez dodanie wszystkich wartości badanych zmiennych, a następnie podzielenie tej sumy przez liczebność populacji. Liczymy ją z wzoru ogólnego o następującej postaci.

$$ {Średnia}~{arytmetyczna} ~~~~~~~~~~~ \overline{x}= \frac{1}{N}\sum_{i=1}^Nx_i$$

Drugim bardzo popularnym pojąciem jest odchylenie standardowe, które opisuje jak wartości są rozrzucone wokół średniej arytmetycznej. Im wyższa wartość odchylenia standardowego, tym wartości obserwacji są bardziej oddalone od średniej i odwrotnie im niższa wartość odchylenia standardowego, tym wartości obserwacji są bardzie skupione wokół średniej. Odchylenie standardowe z próby lub dyspersja z próby liczone jest z następującego wzoru:

$$ {Odchylenie}~{standardowe}~~~~~~~~~~~~S_x = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2} $$

Median czyli wartość środkowa cechy w uporządkowanym niemalejąco ciągu obserwacji. Dzieli zbiór na dwie równoliczne części. Liczona jest na podstawie poniższego wzoru:

$$\begin{equation}Mediana~~~~~~~~Me = \begin{cases}\frac{1}{2}(X_{\frac{n}{2}}+X_{\frac{n}{2}+1})~~~~~~~~gdy~n - parzyste\\ X_\frac{n+1}{2}~~~~~~~~~~~~~~~~~~~~~~~~~gdy~n - nieparzyste\ \end{cases} \end{equation}$$

Podstawowe statystyki dotyczące zamówień

Aby zbadać podstawowe wielkości sprzedażowe, dokonuje wyciecia zbędnych dla tego celu danych, a następnie obliczam podstawowe wartości statystyczne. Dowiaduję się dzięki temu o wielkości całkowitej sprzedaży, która jest na poziomie 435 384 sztuk oraz jej całkowietj wartości na poziomie 13 708 896,30 dolarów. Ponadto obliczam podstawowe wartości statystyczne danych sprzedażowych dla badanego okresu. Średnia wartośc sprzedaży kształtuje się na poziomie 71 dolarów z otchyleniem standardowym 183,51. Najwyższe zamówienie opiewało na kwotę 9848,96 dolara. Mediana kształtuje się na poziomie cenowym wynoszącym 25,90 dolara, co oznacza, że połowa zawartych transakcji nie przekraczała kwoty 25,90 dolara.

Analiza danych w przedziałach czasowych

Wielkość sprzedaży w kolejnych latach

Analizując całkowitą wartość sprzedaży z podziałem na lata widać, że do 2014 roku badana jednostka notowała nieustanny wzrost przychodów. Jednakże w kolejnych latach zanotowany trend, wskazuje na drastyczne pogorszenie sytuacji.

Wielkość sprzedaży w kolejnych latach ze względu na płeć klienta

Na poniższym wykersie oraz danych w tabeli pokazano przychód z podziałem na płeć klientów. Zauważalnie wyższe przychody generują mężczyźni, co koreluje ze strukturą klientów.

Dane z wykresu powyżej przedstawione w postacie tabeli przestawnej.

Wielkość sprzedaży w kolejnych latach ze względu na grupy produktowe

Wielkość sprzedaży w kolejnych latach, z podziałem na grupy produktowe. W badanym okresie, widać, że w kolejnych latach niezmiennie w sprzedaży wiodą prym produkty z grupy ARTWORK. Bardzo widoczny jest również trend, który wskazuje rok 2014 jako przełomowy co do wielkości sprzedaży, ponieważ w kolejnych latach zauważalny jest spadek sprzedaży praktycznie we wszytkich grupach produktowych.

Dane z wykresu powyżej przedstawione w tabeli przestawnej.

Wielkość sprzedaży w kolejnych latach ze względu na formę płatności

Wielkość sprzedaży w kolejnych latach, z podziałem na formy płatności. W badanym okresie, widać, że w kolejnych latach niezmiennie największy udział mają trzy formy płatności IV, AE i MC.

Obserwacje odstające.

Obserwacje odstające - to mówiąc najprościej obserwację, które są relatywnie oddalone od pozostałych obserwacji. Oznaczać to może, że relacja pomiędzy zmiennymi objaśnianymi (zależnymi), a zmiennymi objaśniającymi (niezależnymi), dla danej obserwacji, może być inny niż od tego, który jest w pozostałym zbiorze danych. Mogą one odzwierciedlać stan faktyczny, ale również być efektem przypadku lub po prostu błędu pomiarowego.

Liczone są według nastepującego wzoru:

$$ {Obserwacje~Odstające}~ = [Q_1 - k(Q_3 - Q_1)~~, ~~Q_3 + k(Q_3 - Q_1)] $$

gdzie k > 0 i najczęściej przyjmuje się wartość k = 1,5.

Współczynnik skośności

Współczynnik skośności lub astymetrii mówi o tym, jaka część odchylenia standardowego stanowi różnicę pomiędzy średnią arytmetyczną, a medianą. Współczynnik o wartości 0 jest to rozkład symetryczny. Wartość dodatnia oznacza rozkład prawostronnie skośny (średnia większa od mediany $\overline{x}>Me$) natomiast ujemna, lewostronnie skośny(średnia mniejsza od mediany - $\overline{x}<Me$).

Liczymy go z następującego wzoru:

$$ Współczynnik~Asymetrii/Skośności~~~~~~~~~A_{Me}= 3* \frac{\overline{x}-Me}{s} $$

gdzie:

$A_{me}~-~współczynnik~skośności~-~oparty~o~Medianę$

$\overline{x}~-~średnia~arytmetyczna$

$Me~-~mediana$

$s~-~odchylenie~standardowe$

Testy statystyczne

Test Shapiro-Wilka

Test Shapiro-Wilka - to jeden z najpopularniejszych testów służących do oceny czy zebrane dane należą do rozkładu nromalnego. Stosowany jest z reguły do mniejszych grup, przeważnie (N < 100), i dlatego przeprowadzę test dla grupy 100 losowo wybranych obserwacji.

Hipotezy formułowane w następujący sposób:

$H_0~~-~~próbka~pochodzi~ z~ rozkładu~ nromalnego$

$H_1~~-~~próbka~ nie~ pochodzi~ z ~rozkładu ~normalnego$

$$W=\frac{(∑_ia_i(n)(X_{n−i+1}−X_i))^2} {∑_{j=1}^n(X_j−\overline{X})^2}$$

gdzie:

$ W~-~wynik~ testu~ Shapiro-Wilka$

$a_i(n)~-~stała,~wartość~tablicy$

$(X_{n−i+1}−X_i)~~róźnica~pomiędzy~skrajnymi~obserwacjami,~przy~czym~i=1~różnica~dla~min~i~max;~dla~i=2~różnica~dla~min+1~i~max~-1~itd. $

$j~-~kolejne~obserwacje~w~próbie$

$i~-~kolejne~różnice~między~skrajnymi~obserwacjami$

$\overline{X}~-~średnia$

Przeprowadzony test wskazuje przyjęcie: $~~~~~~H_1~~-~~próbka~ nie~ pochodzi~ z ~rozkładu ~normalnego$

Test Kołmogorowa-Smirnowa

Test Kołmogorowa-Smirnowa – test do oceny zgodności rozkładu analizowanych zmiennych z rozkładem normalnym. Test ten stosowany jest dla prób dużo większych, aniżeli te preferowane przez Test Shapiro-Wilka. Jako jedną z granic, podaje się N >100. W przeprowadzonym teście przyjmiemy próbę N = 1000. Test określany jest wzorem:

$$D_{n}=\sup_{x}|F_{n}(x)-F(x)|$$

gdzie:

$F_n(x)$ - empiryczna dystrybuanta rozkładu normalnego wyliczana w poszczególnych punktach rozkładu, dla $n$-elementowej próby ,

$F(x)$ - teoretyczna dystrybuanta rozkładu normalnego.

Wynikiem testu jest para liczb $D$ i $p-wartość$ p

Hipotezy:

H0 : rozkład badanej cechy w populacji jest rozkładem normalnym

H1 : rozkład badanej cechy w populacji jest różny od rozkładu normalnego.

Wyznaczoną na podstawie statystyki testowej wartość p porównujemy z poziomem istotności α przyjętego na poziomie 0.05:

jeżeli p ≤α możemy odrzucić H0 przyjmując H1

jeżeli p >α nie ma podstaw do odrzucenia H0

Komentarz do testów oraz przeprowadzonej analizy

Z przeprowadzonych badań wynika, że badana jednostka gospodarcza w badanym okresie osiągnęła przychód na poziomie niespełna 14 mln dol. Największy udział w wielkości sprzedaży mają produkty z grupy ARTWORK generujące w badanym okresie przychód na poziomie nieco ponad 9 mln $, przy jednoczesnym udziale niespełna 20% w ilości wszystkich zawartych transakcji. Największy udział w ilości transakcji mają produkty z grupy BOOK i jest to niespełna 40% w badanym okresie. Przychód z tytułu sprzedaży produktów z tej grupy wynosi niespełna 2,5 mln dol. Rok 2014 był zdecydowanie najlepszy jeżeli chodzi o wielkość sprzedaży, w kolejnych latach, badana jednostka notowała spadki swoich przychodów w każdej grupie towarowej. Najwyższą ilość transakcji odnotowano w miście Nowy York jak również wielkość sprzedaży z ogromną przewagą nad drugim w kolejności Brooklynem oraz pozostałymi miastami.
Spośród wszystkich form płatności najpopularniejsza jest VI z udziałem niespełna 40% wszystkich transakcji. Większość pośród klientów stanowią mężczyźni, którzy stanowią 55,56%. Przeprowadzono również testy Shapiro-Wilka oraz Kołmogorowa-Smironowa, które jednomyślnie wskazały, że posiadane dane nie pochodzą z rozkładu normalnego.

Analiza koszykowa

Wstęp teoretyczny

Analiza koszykowa jest wielowymiarową metodą statystyczną analizy danych, która pozwala na znajdowanie powiązań pomiędzy produktami z różnych kategorii. Rylacje zachodzące pomiędzy współwystępującymi elementami opisane są za pomocą reguł asocjacyjnych, wyrażonych na podstawie trzech miar: pokrycia reguły - Support (opisującej częstość występowania danej grupy elementów) oraz ufności reguły -Confidence (określającej prawdopodobieństwo wystąpienia jakiegoś zdarzenia po wystąpieniu innego zdarzenia) oraz przyrost - Lift - (określa czy fakty wystąpenia jednego produktu wpływa na zwiększenie prawdopodobieństwa pojawienia się drugiego produtku w ramach jednej transakcji)

$$SUPPORT~~~~supp(L)=\frac{nL}{n}$$$$CONFIDENCE~~~~conf(L\Longrightarrow{R})=\frac{supp(L+R)}{supp(L)}$$$$LIFT~~~~lift(L\Longrightarrow{R})=\frac{supp(L+R)}{supp(L)supp(R)}$$

Ze względu na swoje właściwości, analiza reguł asocjacyjnych jest szczególnie użyteczna do analizy danych dotyczących wypadków przy pracy, ponieważ umożliwia identyfikację przebiegu najczęściej występujących wypadków przy pracy, przy jednoczesnym uwzględnieniu w analizie wszystkich etapów przebiegu. Oznacza to, że analizie nie jest poddawany każdy etap wypadku osobno, jak to ma miejsce w przypadku prostych zestawień statystycznych, lecz pełny przebieg wypadku. Należy jednak ograniczyć analizowane przebiegi wypadków przy pracy do kilku kluczowych zdarzeń, ponieważ uwzględnienie wszystkich etapów przebiegu (od procesu pracy, po rodzaj urazu i umiejscowienie urazu) powoduje znaczne rozproszenie wyników.

W przypadku zastosowania analizy reguł asocjacyjnych do danych dotyczących wypadków przy pracy pokrycie i ufność reguły należy rozumieć, jako: pokrycie reguły (wsparcie) – procent wypadków przy pracy, w których doszło do zdarzeń A i B, wśród wszystkich wypadków przy pracy. Oznacza częstość występowania tego typu wypadków przy pracy:

ufność reguły – jest to miara dokładności reguły, którą można określić jako procent wypadków przy pracy, w których doszło do powstania zdarzenia A i zdarzenia B, wśród wszystkich wypadków przy pracy, w których doszło do zdarzenia A. Oznacza prawdopodobieństwo wystąpienia zdarzenia B, jeżeli wystąpiło zdarzenie A:

Wobec poszukiwanych reguł asocjacyjnych warto wyznaczyć minimalne wymagania, które pozwalają na identyfikację najczęściej występujących wypadków przy pracy, a więc takich które mają odpowiednio duży udział w ogólnej liczbie wypadków, przy jednoczesnym zachowaniu odpowiedniej ich szczegółowości.

Przygotowanie danych do analizy

Połączone dane układam według grupy produktów oraz zliczam liczebność.

Poniższa tabela pokazuje czy dany produkt był zakupiony z innym, jeżeli wartość jest większa niże jeden, oznacza to, że produkt wystąpił kilka razy w ramach jednego zakupu. W następnym kroku zredukuję wszystkie wartości do 1.

Po zmianie wszystkich zmiennych większych od 1 na 1 nasza tabela jest gotowa do dalszej analizy.

Analiza z użyciem algorytmu apriori

Wyznaczam pierwszą miarę - Support - relację pomiędzy produktami, a następnie sprawdzam reguły asocjacyjne.

Dane w powyzszej tabeli - kolummna LIFT - wskazuje, że wystąpienie jednego produtku wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego produktu w ramach jednego zamówienia, dla wartości współczynnika wyższej niż 1. Produkt z grupy FREEBIE znacząco zwiększa sprzedaż artykułów z grup produktowych OCCASION, BOOK, OTHER, GAME, ARTWORK, co oznacza, że wręczane gratisy pozytywnie wpływają na sprzedaż. Oprócz tego widoczna jest pozytywna zależność z produktami z grupy OTHER oraz OCCASION i BOOK.

Podsumowanie

Przeprowadzona analiza badanej jednostki pozwoliła spojrzeć na nią z wielu różnych stron. Dowiedzieliśmy się między innymi jak wygląda struktura sprzedaży, klientów, grup produktowych, form płatności, rynków zbytu czy też przychodów. Zdobyte w ten sposób informacje, są doskonałym narzędziem dla zarządzających badaną jednostką. Dzięki nim mogą podjąć decyzję co do przyszłości jednostki. Wiedzą jakie produkty są dla nich strategiczne jeżeli chodzi o realizowaną sprzedaż, a nad którymi warto ‚popracować’, aby przynosiły większe zyski dla przedsiębiorstwa, które kanały zbytu są najefektywniejsze oraz jakie rynki zbytu są strategiczne. Wykazany spadek przychodów w ostatnich dwóch badanych latach, jest również istotną informacją, choćby do zgłębienia problemu dlaczego taki nastąpił, co miało na to wpływ, tym bardziej, że dotyczyło to wszystkich grup produktowych.

Przeprowadzona analiza koszykowa wskazała jasno relację pomiędzy grupami produktowymi, dzięki czemu wiadomo jak planować wszelkiego rodzaju promocje i inne akcje sprzedażowe, dzięki którym jednostka zwiększy swoje przychody.

Odpowiednie podejście do otrzymanych w drodze analizy danych, z pewnością pozytywnie wpłynie na działanie jednostki oraz jej przyszłość. Pozwoli na bardziej świadome podejmowanie przyszłych decyzji gospodarczych.